Close

@AudiovisualMaterial{SilvaJúnior:2020:AbInCi,
             abstract = "A ci{\^e}ncia de dados {\'e} uma {\'a}rea de estudo 
                         multidisciplinar que tem se tornado cada vez mais popular entre as 
                         empresas de todo o planeta. Esta {\'a}rea tem como principal 
                         objetivo a extra{\c{c}}{\~a}o de informa{\c{c}}{\~o}es 
                         relevantes {\`a} partir de dados brutos, visando o melhor apoio 
                         {\`a} tomada de decis{\~a}o. Esta ci{\^e}ncia lida com 
                         t{\'e}cnicas estudadas h{\'a} d{\'e}cadas, que vem ganhando 
                         destaque nos {\'u}ltimos anos em virtude do aumento da capacidade 
                         computacional para o processamento de um grande volume de dados 
                         que tem praticamente dobrado a cada ano. Estes dados s{\~a}o 
                         obtidos a partir de diversas fontes, como bancos de dados 
                         transacionais, redes sociais e dispositivos IOT, por exemplo. 
                         Contudo, eles necessitam de alguma interven{\c{c}}{\~a}o 
                         profissional para a detec{\c{c}}{\~a}o e a 
                         elimina{\c{c}}{\~a}o de inconsist{\^e}ncias, de modo a 
                         possibilitar as melhores e mais confi{\'a}veis an{\'a}lises. 
                         Dada a popularidade da ci{\^e}ncia de dados entre as empresas e a 
                         dificuldade de se formar um profissional com boa 
                         capacita{\c{c}}{\~a}o nos pilares da ci{\^e}ncia da 
                         computa{\c{c}}{\~a}o, estat{\'{\i}}stica / matem{\'a}tica e 
                         conhecimento de neg{\'o}cio, a demanda pelo cientista de dados no 
                         mercado de trabalho tem aumentado cada vez mais e, em 
                         consequ{\^e}ncia, o interesse pelo ingresso nesta nova 
                         profiss{\~a}o tem sido cada vez maior. O desafio do Titanic, 
                         promovido pela Kaggle que {\'e} uma plataforma que hospeda 
                         competi{\c{c}}{\~o}es de ci{\^e}ncia de dados, normalmente 
                         {\'e} a porta de entrada dos aspirantes a cientista de dados para 
                         o mundo da modelagem preditiva. No entanto, a falta dos recursos 
                         adequados para lidar com a etapa de prepara{\c{c}}{\~a}o dos 
                         dados acaba comprometendo o sucesso da an{\'a}lise. Portanto, a 
                         proposta deste trabalho {\'e} uma abordagem por meio do conjunto 
                         de dados do desafio do Titanic, ao qual ser{\'a} demonstrada a 
                         etapa de tratamento e prepara{\c{c}}{\~a}o dos dados com a 
                         utiliza{\c{c}}{\~a}o da linguagem de alto n{\'{\i}}vel R 
                         apoiada pelo algoritmo KNN para a imputa{\c{c}}{\~a}o de dados 
                         ausentes. Com a aplica{\c{c}}{\~a}o destas t{\'e}cnicas, 
                         al{\'e}m da obten{\c{c}}{\~a}o de um conjunto de dados lapidado 
                         para aplica{\c{c}}{\~a}o da an{\'a}lise preditiva requerida 
                         pelo desafio, pode-se constatar que a abordagem {\'e} vi{\'a}vel 
                         e plaus{\'{\i}}vel para ser aplicada em situa{\c{c}}{\~o}es do 
                         mundo real, uma vez que os dados obtidos pelas empresas, mesmo em 
                         contexto e dimens{\~o}es diferentes, muitas vezes s{\~a}o 
                         apresentados de forma semelhante. Este estudo tem o prop{\'o}sito 
                         de mostrar de maneira l{\'u}dica a import{\^a}ncia de uma boa 
                         an{\'a}lise explorat{\'o}ria e do tratamento dos dados 
                         levantados, podendo assim auxiliar a Academia em estudos futuros, 
                         bem como orientar e incentivar os novos profissionais.",
          affiliation = "{Universidade Federal do Paran{\'a} (UFPR)}",
               author = "Silva J{\'u}nior, Antonio Carlos da",
                 city = "S{\~a}o Jos{\'e} dos Campos",
       conferencename = "Workshop dos Cursos de Computa{\c{c}}{\~a}o Aplicada do INPE, 20 
                         (WORCAP)",
                 date = "8-11 e 14-17 set. 2020",
             language = "pt",
                 note = "{(15 min)}",
            publisher = "Instituto Nacional de Pesquisas Espaciais (INPE)",
     publisheraddress = "S{\~a}o Jos{\'e} dos Campos",
                  ibi = "8JMKD3MGPDW34P/43HC39E",
                  url = "http://urlib.net/ibi/8JMKD3MGPDW34P/43HC39E",
           targetfile = "KNN e desafio do Titanic_ Abordagem introdut{\'o}ria da 
                         ci{\^e}ncia de dados - Antonio C. da Silva Jr.mp4",
                title = "O KNN e o desafio do Titatnic: uma abordagem introdut{\'o}ria da 
                         ci{\^e}ncia de dados",
                 type = "tecnologia da informa{\c{c}}{\~a}o",
                 year = "2020",
        urlaccessdate = "2024, Apr. 28"
}


Close